ساختارعصبی تقریب تابع مبتنی بر dignet برای یادگیری تقویتی

thesis
abstract

یادگیری تقویتی عبارت است از قالب بندی یک مسئله به فرم یادگیری از طریق تعامل برای رسیدن به هدف. زمانی که فضای حالات و یا کنش ها پیوسته و یا خیلی بزرگ شود استفاده از عناصر حافظه برای نگه داری ارزش حالات بسیار زیاد خواهد شد. این مسئله در رابطه با زمانی که در طول یادگیری ارزش کنش ها به دست آورده می شود، بحرانی تر خواهد شد. علاوه بر حافظه مصرفی مسئله ، داده و زمان لازم برای پر کردن آنها نیز مهم است. بنابراین مسئله تعمیم پیش خواهد آمد.روش پیشنهاد شده برای مسائل یادگیری تقویتی با فضای پیوسته ای از حالت ها و کنش ها مناسب است. در این روش از شبکه عصبی خودسازمان ده dignet برای نمایش فضای حالت و کنش استفاده شده است.استفاده از این شبکه سبب می شود در یک فضای پیوسته، عامل بتواند با استفاده از یک حافظه مصرفی مناسب ،میزان داده و زمان قابل قبول به هدف دست یابد.در پیشنهاد این پایان نامه مفاهیم اساسی یک مسئله یادگیری تقویتی و همچنین یک شبکه عصبی خودسازمان ده dignet بررسی می شود، و ساختار این شبکه به عنوان یک روش خوشه بندی کارا برای حل چالش پیوستگی فضای حالات و کنش ها ،در مسئله یادگیری تقویتی پیشنهاد می شود و کارایی آن بررسی و مقایسه می شود.

First 15 pages

Signup for downloading 15 first pages

Already have an account?login

similar resources

تقریب تابع ارزش عمل با استفاده از شبکه توابع پایه شعاعی برای یادگیری تقویتی

مشکل تنگنای ابعاد، یکی از چالش هایی است که کاربرد الگوریتم های یادگیری تقویتی گسسته را در مورد مسائل کنترلی واقعی که دارای فضای حالت و عمل بزرگ و یا پیوسته می باشند محدود نموده است. ترکیب روش های آموزشی گسسته با تقریب زننده های تابعی برای حل این مشکل چندی است مورد توجه محققان قرارگرفته است. در همین راستا در این مقاله یک الگوریتم جدید یادگیری تقویتی عصبی (NRL) بر مبنای معماری نقاد- تنها معرف...

full text

کنترل‌کننده مقاوم تطبیقی بار فرکانس مبتنی بر یادگیری تقویتی برای یک سیستم قدرت به‌هم‌پیوسته شامل SMES

هدف از این مقاله استفاده از یادگیری تقویتی برای طراحی کنترل‌کننده‌های PID و SMES مقاوم و تطبیقی برای کنترل بار فرکانسی در یک سیستم قدرت دو ناحیه‌ای حرارتی است. ابتدا تنظیم پارامترهای کنترل‌کننده‌های PID و SMES به‌صورت یک مسئله بهینه‌سازی مدل‌شده توسط الگوریتم تدریس - یادگیری اصلاح‌شده حل می‌شود. سپس عملکرد هم‌زمان آن‌ها با استفاده از الگوریتم پیشنهادی مبتنی بر یادگیری تقویتی بهینه می‌گردد. کنتر...

full text

روشی نوین برای یادگیری تقویتی فازیِ باناظر برای ناوبری ربات

: استفاده از یادگیری باناظر در ناوبری ربات های متحرک، با چالش های جدی از قبیل ناسازگاری و اختلال در داده ها، مشکل جمع آوری نمودن داده آموزش و خطای زیاد در داده های آموزشی مواجه می باشد. قابلیت های یادگیری تقویتی همچون عدم نیاز به داده آموزشی و آموزش تنها با استفاده از یک معیار اسکالر راندمان باعث کاربرد آن در ناوبری ربات شده است. از طرفی یادگیری تقویتی زمانبر بوده و دارای نرخ شکست های بالا در م...

full text

اثبات رابطه سرگئی وینزکی برای تقریب تابع توزیع نرمال استاندارد

در بین تمام توزیع‌های آماری توزیع نرمال استاندارد مهم‌ترین و کاربردی‌ترین توزیع آماری بوده و محاسبه سطح زیر منحنی چگالی و تابع توزیع آن مورد نیاز است. ضابطه این تابع به‌صورت یک انتگرال معین بیان می‌شود، ولی متاسفانه تابع اولیه آن دارای شکل بسته و تحلیلی نیست، لذا باید آن را تقریب زد. در این مقاله رابطه تقریبی سرگئی وینزکی با یک روش جدید اثبات می‌شود، سپس این تقریب با تغییراتی در رابطه آن بهبود ...

full text

پیش‌بینی روند حرکتی قیمت سهام با استفاده از XCS مبتنی بر الگوریتم ژنتیک و یادگیری تقویتی

پیشرفت‌ها در حوزۀ هوش مصنوعی و یادگیری ماشین به‌خصوص درزمینۀ محاسبات تکاملی نه‌تنها ما را قادر به تجزیه‌وتحلیل مؤثرتر داده‌ها نموده است، بلکه این امکان را فراهم ساخته که از آن‌ها برای فهم هرگونه الگوی زیربنایی بازارهای مالی استفاده گردد. اقتصاددانان، آماردانان و مدرسان امور مالی همواره علاقه‌مند به توسعه و آزمایش مدل‌های رفتاری قیمت سهام بوده‌اند. XCS سامانه‌ای مرکب از الگوریتم ژنتیک و یادگیری ...

full text

My Resources

Save resource for easier access later

Save to my library Already added to my library

{@ msg_add @}


document type: thesis

دانشگاه تربیت معلم - تهران - دانشکده فنی

Hosted on Doprax cloud platform doprax.com

copyright © 2015-2023